سیستم شناسایی موجودیت های نامدار در متون فارسی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی ارومیه - دانشکده فنی
نویسنده حامد مرادی
استاد راهنما محمدرضا فیضی درخشی فرید احمدی
سال انتشار 1393

چکیده

شناسایی موجودیت های نامدار در پردازش زبان طبیعی به عملیاتی گفته می شود که طی آن کلی? اسامی خاص موجود در متن و متعلّق به مقوله های معنایی مختلف، شناسایی و استخراج می گردند. در واقع، شناسایی موجودیت های نامدار عملی است که در جهت ساختار بخشیدن به متن صورت می گیرد. شناسایی موجودیت های نامدار، بطور کلی با یکی از روش های مبتنی بر قانون و یا مبتنی بر روش یادگیری ماشینی و یا بصورت ترکیبی از این دو روش صورت می گیرد. در این پژوهش نیز با توجه به اینکه کارهای بسیار کمی در خصوص شناسایی موجودیت های نامدار در زبان فارسی صورت گرفته است، سیستمی پیشنهاد شده است که از هر دو روش مبتنی بر قانون(استفاده از فهرست ها، وندها و الگوها) و مبتنی بر یادگیری ماشین(در اینجا مدل مخفی مارکوف) برای شناسایی موجودیت ها استفاده می کند و در نهایت نتایج حاصل از این دو روش را ترکیب می نماید. با توجه به اینکه موجودیت های پایه ای که از زمان پیدایش این مفهوم مورد توجّه قرار گرفته اند، شامل اسامی اشخاص، مکان ها و سازمان ها می باشند، در سیستم پیشنهادی نیز روی این سه نوع موجودیت تمرکز شده است. البتّه در کنار این موجودیت های پایه ای، می توان به موجودیت هایی مانند زمان ها، تاریخ ها و مقادیر کمّی نیز پرداخت که خارج از حیط? این پژوهش می باشد. براساس ارزیابی هایی که با استفاده از مجموعه ای از داده های تست از نوع متن خبری شامل 32606 نشانه صورت گرفته است، سیستم ارائه شده در روش مبتنی بر قانونِ خود که تأکید اصلی این پژوهش می باشد، قادر خواهد بود موجودیت های نامدار را با دقّت(نسبت موجودیت های صحیح یافت شده بر کل موجودیت های یافت شده) حدود 95% و با فراخوانی(نسبت موجودیت های صحیح یافت شده به کل موجودیت ها) حدود 80% شناسایی نماید. این نتایج می تواند موجب بهبود کارایی در سیستم هایی مانند سیستم های پاسخگویی موتورهای جستجو که از نتایج حاصل از سیستم های شناسایی موجودیت های نامدار استفاده می کنند، بشود. شایان ذکر است که عدم وجود لیست های موجودیتی نسبتاً کامل و دشواری تعیین محدود? موجودیت ها از عوامل اصلی افت کارایی سیستم می باشد.

منابع مشابه

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...

متن کامل

بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره اضافه

Named entity recognition is a process in which the people’s names, name of places (cities, countries, seas, etc.) and organizations (public and private companies, international institutions, etc.), date, currency and percentages in a text are identified. Named entity recognition plays an important role in many NLP tasks such as semantic role labeling, question answering, summarization, machine ...

متن کامل

سیستم شناسایی و طبقه‌بندی موجودیت‌های اسمی در متون زبان فارسی بر پایه شبکه عصبی

Named Entity Recognition (NER) is a fundamental task in natural language processing and also known as a subset of information extraction. We seek to locate and classify named entities in text into predefined categories such as the names of persons, organizations, locations, expressions of times, etc. Named Entity Recognition for English texts has been researched widely for the past years, howev...

متن کامل

شناسایی موجودیت های همانند در وب داده

وب داده به منظور ایجاد وب قابل فهم برای ماشین ها معرفی شده است که اتصالات معنادار بین موجودیت ها از ویژگی های اصلی آن است. یکی از مهم ترین اتصالات معنادار در وب داده، اتصالات همانندی است که بین موجودیت های همانند ایجاد می شود. شناسایی و اتصال موجودیت هایی که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند، موجب می شود عامل ها ...

15 صفحه اول

ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون

Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...

متن کامل

شناسایی کسره اضافه در متون فارسی برای استفاده در سیستم های تبدیل متن به گفتار

این تحقیق به شناسایی کسره اضافه در متون فارسی اختصاص دارد. روشهای مورد استفاده برای شناسایی کسره اضافه باید به گونه ای باشند که بتوانند بدون محدودیت در کلیه متون مورد استفاده قرار گیرند. همچنین در هنگام تشخیص دارای سرعت مناسبی نیز باشد. برای آموزش و تست روشهای ارایه شده در این تحقیق از پیکره زبان فارسی تهیه شده توسط پژوهشگاه هوشمند علایم استفاده گردیده استکه برای بخش تست آن از 1000 متن این پیکر...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی ارومیه - دانشکده فنی

کلمات کلیدی

شناسایی موجودیت های نامدار مدل مخفی مارکوف پردازش زبان طبیعی زبان فارسی

میزبانی شده توسط پلتفرم ابری doprax.com